CHI 제곱 검정

작성자

익명

작성일

2026.01.25

조회수

버전

CHI 제곱 검정

개요

CHI 제곱 검정(Chi-Square Test, 카이제곱 검정)은 통계학에서 범주형 변수(categorical variable) 간의 독립성 또는 관찰된 빈도와 기대 빈도 간의 차이를 평가하기 위해 널리 사용되는 비모수적(non-parametric) 가설 검정 방법입니다. 이 검정은 영국의 통계학자 카를 피어슨(Karl Pearson)이 1900년에 제안하여 피어슨의 카이제곱 검정(Pearson's Chi-Square Test)으로도 불립니다.

CHI 제곱 검정은 주로 다음과 같은 두 가지 목적에 사용됩니다:

적합도 검정(Goodness-of-fit test): 관찰된 빈도 분포가 기대되는 이론적 분포와 일치하는지 검정
독립성 검정(Test of independence): 두 범주형 변수가 서로 독립적인지 여부를 판단

이 검정은 빈도 데이터를 기반으로 하며, 정규성 가정이 필요 없어 다양한 사회과학, 의학, 마케팅 등 실제 현장에서 자주 활용됩니다.

검정의 원리와 수식

CHI 제곱 검정의 핵심은 관찰 빈도(observed frequency, $ O_i $)와 기대 빈도(expected frequency, $ E_i $) 간의 차이를 제곱하여 합산하는 것입니다. 이 값이 클수록 관찰값과 기대값의 차이가 크다는 의미이며, 통계적으로 유의미한 차이가 있다고 판단할 수 있습니다.

CHI 제곱 통계량 계산식

[ \chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} ]

$ O_i $: i번째 범주에서 관찰된 빈도
$ E_i $: i번째 범주에서 기대되는 빈도
합계는 모든 범주에 대해 수행됨

이 통계량은 자유도에 따라 카이제곱 분포(Chi-Square Distribution)를 따릅니다. 자유도는 검정의 종류에 따라 달라집니다.

검정의 종류

1. 적합도 검정 (Goodness-of-fit Test)

적합도 검정은 한 개의 범주형 변수에 대해, 관찰된 빈도가 특정 이론적 분포(예: 균일분포, 이항분포 등)와 일치하는지를 검정합니다.

예시

주사위를 60번 던졌을 때, 각 눈이 10번씩 나와야 한다는 균일분포 가정을 검정
특정 지역의 종교 분포가 전체 국가 평균과 일치하는지 확인

자유도

[ df = k - 1 ] - $ k $: 범주의 수

2. 독립성 검정 (Test of Independence)

독립성 검정은 두 개의 범주형 변수가 서로 독립적인지 여부를 판단하는 데 사용됩니다. 일반적으로 교차표(contingency table)를 사용하여 분석합니다.

예시

성별과 선호 음료(커피 vs 차) 간의 관계가 있는지 검정
흡연 여부와 폐 질환 발생 간의 연관성 평가

기대 빈도 계산

교차표에서 각 셀의 기대 빈도는 다음과 같이 계산됩니다:

[ E_{ij} = \frac{(\text{행 합계}_i) \times (\text{열 합계}_j)}{\text{전체 표본 수}} ]

자유도

[ df = (r - 1)(c - 1) ] - $ r $: 행의 수 - $ c $: 열의 수

검정 절차

CHI 제곱 검정은 다음과 같은 단계로 수행됩니다:

가설 설정
귀무가설 $ H_0 $: 관찰 빈도와 기대 빈도는 차이가 없다. (또는 두 변수는 독립이다.)
대립가설 $ H_1 $: 관찰 빈도와 기대 빈도는 차이가 있다. (또는 두 변수는 독립이 아니다.)
유의수준 설정
일반적으로 $ \alpha = 0.05 $
CHI 제곱 통계량 계산
위의 수식을 사용하여 $ \chi^2 $ 값 산출
자유도 계산 및 임계값 도출
자유도에 따라 카이제곱 분포표에서 임계값을 찾거나, p-값 계산
결정
계산된 $ \chi^2 $ 값이 임계값보다 크거나 p-값이 유의수준보다 작으면 귀무가설 기각

사용 조건과 제한 사항

CHI 제곱 검정은 유용하지만, 다음과 같은 조건을 충족해야 신뢰할 수 있는 결과를 얻을 수 있습니다:

랜덤 표본: 데이터는 무작위 표본에서 추출되어야 함
독립성: 각 관찰은 독립적이어야 함
기대 빈도 조건:
대부분의 셀에서 기대 빈도가 5 이상이어야 함
5 미만의 기대 빈도를 가진 셀이 전체의 20%를 초과하면 결과가 왜곡될 수 있음
이 경우 피셔의 정확 검정(Fisher's Exact Test) 사용을 고려

실용적 예시 (R 코드 예시)

# 예: 성별과 음료 선호의 독립성 검정
data <- matrix(c(30, 10, 20, 25), nrow = 2,
               dimnames = list(성별 = c("남성", "여성"),
                               음료 = c("커피", "차")))

chisq.test(data)

출력 예:

Pearson's Chi-squared test with Yates' continuity correction

X-squared = 6.63, df = 1, p-value = 0.01

p-값이 0.05보다 작으므로, 성별과 음료 선호는 독립이 아니며 통계적으로 유의한 관계가 있다고 결론지을 수 있습니다.

참고 자료

Agresti, A. (2018). An Introduction to Categorical Data Analysis. Wiley.
Field, A. (2018). Discovering Statistics Using R. Sage Publications.
Wikipedia. "Chi-squared test". https://en.wikipedia.org/wiki/Chi-squared_test

관련 문서

📝 마크다운 원본

이 문서의 마크다운 원본 내용입니다.

# CHI 제곱 검정

## 개요

**CHI 제곱 검정**(Chi-Square Test, 카이제곱 검정)은 통계학에서 범주형 변수(categorical variable) 간의 독립성 또는 관찰된 빈도와 기대 빈도 간의 차이를 평가하기 위해 널리 사용되는 비모수적(non-parametric) 가설 검정 방법입니다. 이 검정은 영국의 통계학자 카를 피어슨(Karl Pearson)이 1900년에 제안하여 **피어슨의 카이제곱 검정**(Pearson's Chi-Square Test)으로도 불립니다.

CHI 제곱 검정은 주로 다음과 같은 두 가지 목적에 사용됩니다:

1. **적합도 검정**(Goodness-of-fit test): 관찰된 빈도 분포가 기대되는 이론적 분포와 일치하는지 검정
2. **독립성 검정**(Test of independence): 두 범주형 변수가 서로 독립적인지 여부를 판단

이 검정은 빈도 데이터를 기반으로 하며, 정규성 가정이 필요 없어 다양한 사회과학, 의학, 마케팅 등 실제 현장에서 자주 활용됩니다.

---

## 검정의 원리와 수식

CHI 제곱 검정의 핵심은 **관찰 빈도**(observed frequency, $ O_i $)와 **기대 빈도**(expected frequency, $ E_i $) 간의 차이를 제곱하여 합산하는 것입니다. 이 값이 클수록 관찰값과 기대값의 차이가 크다는 의미이며, 통계적으로 유의미한 차이가 있다고 판단할 수 있습니다.

### CHI 제곱 통계량 계산식

\[
\chi^2 = \sum \frac{(O_i - E_i)^2}{E_i}
\]

- $ O_i $: i번째 범주에서 관찰된 빈도
- $ E_i $: i번째 범주에서 기대되는 빈도
- 합계는 모든 범주에 대해 수행됨

이 통계량은 자유도에 따라 **카이제곱 분포**(Chi-Square Distribution)를 따릅니다. 자유도는 검정의 종류에 따라 달라집니다.

---

## 검정의 종류

### 1. 적합도 검정 (Goodness-of-fit Test)

적합도 검정은 **한 개의 범주형 변수**에 대해, 관찰된 빈도가 특정 이론적 분포(예: 균일분포, 이항분포 등)와 일치하는지를 검정합니다.

#### 예시
- 주사위를 60번 던졌을 때, 각 눈이 10번씩 나와야 한다는 균일분포 가정을 검정
- 특정 지역의 종교 분포가 전체 국가 평균과 일치하는지 확인

#### 자유도
\[
df = k - 1
\]
- $ k $: 범주의 수

---

### 2. 독립성 검정 (Test of Independence)

독립성 검정은 **두 개의 범주형 변수**가 서로 독립적인지 여부를 판단하는 데 사용됩니다. 일반적으로 **교차표**(contingency table)를 사용하여 분석합니다.

#### 예시
- 성별과 선호 음료(커피 vs 차) 간의 관계가 있는지 검정
- 흡연 여부와 폐 질환 발생 간의 연관성 평가

#### 기대 빈도 계산
교차표에서 각 셀의 기대 빈도는 다음과 같이 계산됩니다:

\[
E_{ij} = \frac{(\text{행 합계}_i) \times (\text{열 합계}_j)}{\text{전체 표본 수}}
\]

#### 자유도
\[
df = (r - 1)(c - 1)
\]
- $ r $: 행의 수
- $ c $: 열의 수

---

## 검정 절차

CHI 제곱 검정은 다음과 같은 단계로 수행됩니다:

1. **가설 설정**
   - 귀무가설 $ H_0 $: 관찰 빈도와 기대 빈도는 차이가 없다. (또는 두 변수는 독립이다.)
   - 대립가설 $ H_1 $: 관찰 빈도와 기대 빈도는 차이가 있다. (또는 두 변수는 독립이 아니다.)

2. **유의수준 설정**
   - 일반적으로 $ \alpha = 0.05 $

3. **CHI 제곱 통계량 계산**
   - 위의 수식을 사용하여 $ \chi^2 $ 값 산출

4. **자유도 계산 및 임계값 도출**
   - 자유도에 따라 카이제곱 분포표에서 임계값을 찾거나, p-값 계산

5. **결정**
   - 계산된 $ \chi^2 $ 값이 임계값보다 크거나 p-값이 유의수준보다 작으면 귀무가설 기각

---

## 사용 조건과 제한 사항

CHI 제곱 검정은 유용하지만, 다음과 같은 조건을 충족해야 신뢰할 수 있는 결과를 얻을 수 있습니다:

- **랜덤 표본**: 데이터는 무작위 표본에서 추출되어야 함
- **독립성**: 각 관찰은 독립적이어야 함
- **기대 빈도 조건**:
  - 대부분의 셀에서 기대 빈도가 **5 이상**이어야 함
  - 5 미만의 기대 빈도를 가진 셀이 전체의 20%를 초과하면 결과가 왜곡될 수 있음
  - 이 경우 **피셔의 정확 검정**(Fisher's Exact Test) 사용을 고려

---

## 실용적 예시 (R 코드 예시)

```r
# 예: 성별과 음료 선호의 독립성 검정
data <- matrix(c(30, 10, 20, 25), nrow = 2,
               dimnames = list(성별 = c("남성", "여성"),
                               음료 = c("커피", "차")))

chisq.test(data)
```

출력 예:
```
Pearson's Chi-squared test with Yates' continuity correction

X-squared = 6.63, df = 1, p-value = 0.01
```

p-값이 0.05보다 작으므로, 성별과 음료 선호는 독립이 아니며 통계적으로 유의한 관계가 있다고 결론지을 수 있습니다.

---

## 관련 개념 및 대체 방법

- **피셔의 정확 검정**(Fisher's Exact Test): 표본 크기가 작거나 기대 빈도가 낮을 때 사용
- **G 검정**(G-test): 로그우도 기반의 대안 검정
- **연속성 보정**(Yates' correction): 2×2 표에서 과도한 유의성 방지를 위해 사용

---

## 참고 자료

- Agresti, A. (2018). *An Introduction to Categorical Data Analysis*. Wiley.
- Field, A. (2018). *Discovering Statistics Using R*. Sage Publications.
- Wikipedia. "Chi-squared test". [https://en.wikipedia.org/wiki/Chi-squared_test](https://en.wikipedia.org/wiki/Chi-squared_test)

---

## 관련 문서

- [가설 검정](가설_검정)
- [피어슨 상관계수](피어슨_상관계수)
- [비모수 검정](비모수_검정)
- [교차 분석](교차_분석)

AI 생성 콘텐츠 안내

이 문서는 AI 모델(qwen-3-235b-a22b-instruct-2507)에 의해 생성된 콘텐츠입니다.

주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.

위키너와나

CHI 제곱 검정

CHI 제곱 검정

개요

검정의 원리와 수식

CHI 제곱 통계량 계산식

검정의 종류

1. 적합도 검정 (Goodness-of-fit Test)

예시

자유도

2. 독립성 검정 (Test of Independence)

예시

기대 빈도 계산

자유도

검정 절차

사용 조건과 제한 사항

실용적 예시 (R 코드 예시)

관련 개념 및 대체 방법

참고 자료

관련 문서

📝 마크다운 원본

🤔 AI의 사고 과정

이 AI 생성 콘텐츠가 도움이 되었나요?